Mod

对两个输入数据执行逐元素取模（取余）操作。对于整数类型，执行标准的 C 语言 % 运算；对于浮点类型，执行类似于 fmod 的余数运算。

\[output_i = input0_i \pmod{input1_i}\]

输入：

input0 - 第一个输入数据地址（被除数）。
input1 - 第二个输入数据地址（除数）。
length - 计算长度。
core_mask(int, 可选) - 核掩码（仅适用于共享存储版本）。

输出：

output - 计算结果地址。

支持平台：

FT78NE MT7004

备注

FT78NE 支持：int8 (i8), int16 (i16), int32 (i32), fp32 (fp), fp64 (dp)
MT7004 支持：int16 (i16), int32 (i32), fp16 (hp), fp32 (fp)
浮点数取模运算遵循标准 C 库函数 fmod 的行为。
若除数元素为 0，结果为未定义行为，需由上层逻辑保证除数非 0。

共享存储版本:

void i8_mod_s(int8_t *input0, int8_t *input1, int8_t *output, int length, int core_mask)

void i16_mod_s(int16_t *input0, int16_t *input1, int16_t *output, int length, int core_mask)

void i32_mod_s(int32_t *input0, int32_t *input1, int32_t *output, int length, int core_mask)

void hp_mod_s(half *input0, half *input1, half *output, int length, int core_mask)

void fp_mod_s(float *input0, float *input1, float *output, int length, int core_mask)

void dp_mod_s(double *input0, double *input1, double *output, int length, int core_mask)

C调用示例：

// FT78NE 示例（共享存储多核并行）
#include <stdio.h>
#include "78NE/utils.h"

int main(int argc, char* argv[]) {
    int32_t *in0 = (int32_t *)0xA0000000;   // 输入0在共享存储空间
    int32_t *in1 = (int32_t *)0xA1000000;   // 输入1在共享存储空间
    int32_t *out = (int32_t *)0xB0000000;   // 输出在共享存储空间
    int length = 10000;
    int core_mask = 0xFF;                 // 使用所有核心进行并行取模计算
    i32_mod_s(in0, in1, out, length, core_mask);
    return 0;
}

私有存储版本:

void i8_mod_p(int8_t *input0, int8_t *input1, int8_t *output, int length)

void i16_mod_p(int16_t *input0, int16_t *input1, int16_t *output, int length)

void i32_mod_p(int32_t *input0, int32_t *input1, int32_t *output, int length)

void hp_mod_p(half *input0, half *input1, half *output, int length)

void fp_mod_p(float *input0, float *input1, float *output, int length)

void dp_mod_p(double *input0, double *input1, double *output, int length)

C调用示例：

// MT7004 示例（私有存储单核）
#include <stdio.h>

int main(int argc, char* argv[]) {
    // 输入与输出均位于私有存储空间
    float *in0 = (float *)0x10000000;
    float *in1 = (float *)0x10001000;
    float *out = (float *)0x10002000;
    int length = 512;
    fp_mod_p(in0, in1, out, length);
    return 0;
}